wineQualityReds分析报告

##   X fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 1           7.4             0.70        0.00            1.9     0.076
## 2 2           7.8             0.88        0.00            2.6     0.098
## 3 3           7.8             0.76        0.04            2.3     0.092
## 4 4          11.2             0.28        0.56            1.9     0.075
## 5 5           7.4             0.70        0.00            1.9     0.076
## 6 6           7.4             0.66        0.00            1.8     0.075
##   free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates alcohol
## 1                  11                   34  0.9978 3.51      0.56     9.4
## 2                  25                   67  0.9968 3.20      0.68     9.8
## 3                  15                   54  0.9970 3.26      0.65     9.8
## 4                  17                   60  0.9980 3.16      0.58     9.8
## 5                  11                   34  0.9978 3.51      0.56     9.4
## 6                  13                   40  0.9978 3.51      0.56     9.4
##   quality
## 1       5
## 2       5
## 3       5
## 4       6
## 5       5
## 6       5

单变量分析

##  [1] "X"                    "fixed.acidity"        "volatile.acidity"    
##  [4] "citric.acid"          "residual.sugar"       "chlorides"           
##  [7] "free.sulfur.dioxide"  "total.sulfur.dioxide" "density"             
## [10] "pH"                   "sulphates"            "alcohol"             
## [13] "quality"
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000
## 
##   3   4   5   6   7   8 
##  10  53 681 638 199  18
# 创建一个直方图公共函数,后简化代码量
wine_plot <- function(varname, binwidth) {
  return (ggplot(aes_string(x = varname), data = pf_wine) + 
            geom_histogram(binwidth = binwidth))
}
绘画红葡萄酒的质量(quality)直方图

分析:

从图中可以看出红葡萄酒的质量大部分集中在5和6中,红葡萄酒的质量正态分布

绘画红葡萄酒的fixed.acidity(固定酸度)直方图

分析:

固定酸度大部分集中在6.5和9.5之间。

绘画红葡萄酒的volatile.acidity(挥发性酸度)直方图

分析:

挥发性酸度大部分集中在0.25和0.75之间。

绘画红葡萄酒的citric.acid(柠檬酸)直方图

分析:

柠檬酸程右偏态分布,大部分集中在0和0.55之间。从表中可以看出存在有很多为0的数据的 异常值,还有后面有个1的异常值。

绘画红葡萄酒的residual.sugar(残留糖)直方图

分析:

残留糖呈右偏态分布,大部分集中在1.5和3之间。有个别值比较异常,超出集中区域很多, 超出9的比较异常,可以去掉

绘画红葡萄酒的chlorides(氯化物)直方图

分析:

氯化物呈右偏态分布,大部分集中在0.05和0.125之间。有个别值比较异常,超出集中区域 很多,超出0.3的比较异常,可以去掉

绘画红葡萄酒的free.sulfur.dioxide(游离二氧化硫)直方图

分析:

游离二氧化呈右偏态分布,有个别值比较异常,超出集中区域很多,超出60的比较异常, 可以去掉

绘画红葡萄酒的total.sulfur.dioxide(总二氧化硫)直方图

分析:

总二氧化硫呈右偏态分布,有个别值比较异常,超出集中区域很多,超出170的比较异常, 可以去掉

从表结构中可以看到红酒有free.sulfur.dioxide(游离二氧化硫)和
total.sulfur.dioxide(总二氧化硫),通过晚上查,溶解性气体还有二氧化碳的
变量,所以我定义一个新的变量sulfur.dioxide,值为总二氧化硫减去游离二氧化硫。
绘画红葡萄酒的新变量sulfur.dioxide(二氧化硫)直方图

分析:

二氧化硫呈右偏态分布,,超出集中区域很多,超出140的比较异常,可以去掉

绘画红葡萄酒的density(密度)直方图

分析:

密度呈正态分布

绘画红葡萄酒的pH直方图

分析:

PH呈正态分布,大部分集中3.0和3.6之间

绘画红葡萄酒的sulphates(硫酸盐)直方图

分析:

硫酸盐呈右偏态分布

绘画红葡萄酒的alcohol(酒精)直方图

分析:

酒精呈右偏态分布

清理数据集

citric.acid存在有很多为0的数据的异常值,还有后面有个1的异常值
residual.sugar有个别值比较异常,超出集中区域很多,超出9的比较异常
chlorides有个别值比较异常,超出集中区域很多,超出0.3的比较异常
创建新数据集pf_wineclean <- subset(pf_wine,citric.acid>0 &
citric.acid <1 & residual.sugar<9 & chlorides<0.3)

你的数据集结构是什么?

我初始数据集有1499条数据,13个变量; 整理后的数据集有1433条数据,14个变量;

你的数据集内感兴趣的主要特性有哪些?

我兴趣的特征有以下几个 1:红酒质量quality; 2:新变量sulfur.dioxide(二氧化硫),从网上查的资料二氧化硫有杀菌、抗氧化、澄清酒液 和提高色素和酚类物质含量等多重作用; 3:alcohol(酒精度),酒都有酒精度数 4:酸度,喝过红酒,红酒有点酸涩的味道。 5:甜度(residual sugar)

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

我认为硫酸盐(sulphates)也有关系 ### 根据数据集内已有变量,你是否创建了任何新变量? 有创建新变量sulfur.dioxide(二氧化硫) ### 在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做? 在探索数据集过程中,发现citric.acid存在有很多为0的数据的异常值,还有后面有个1的 异常值;residual.sugar有个别值比较异常,超出集中区域很多,超出9的比较异常; chlorides有个别值比较异常,超出集中区域很多,超出0.3的比较异常,因为异常数据 比较少,还有为0的数据不可能,所以我把这些数据都清理掉。

双变量绘图选择

使用ggcorr绘画相关关系图

从图中可以看出我关注的固定酸度(fixed acidity),柠檬酸(citric acid),

残留糖(residual sugar),硫酸盐(sulphates),酒精(alcohol)跟质量(quality)正相关性, 其中酸度的volatile.acidity(挥发性酸度跟质量(quality)负相关,新变量sulfur.dioxide (二氧化硫)跟质量(quality)负相关

双变量分析

分析固定酸度(fixed acidity)和质量(quality)关系

分析:

从图中看出固定酸度(fixed acidity)和质量(quality)关联性不大

分析挥发性酸度(volatile.acidity)和质量(quality)关系

分析:

从图中看出质量(quality)越高的红酒相对的挥发性酸度(volatile.acidity)的中位数越小, 质量越好的红酒,挥发性酸度越小

分析柠檬酸(citric acid)和质量(quality)关系

分析:

从图中看出质量(quality)越高的红酒相对的柠檬酸(citric acid)的中位数越多,

分析新变量二氧化硫(sulfur.dioxide)和质量(quality)关系

分析:

从图中看出质量(quality)与新变量二氧化硫(sulfur.dioxide)关联性不大

硫酸盐(sulphates)和质量(quality)关系

分析:

从图中看出质量(quality)越高的红酒相对的硫酸盐(sulphates)的中位数越多,上升不大, 基本上都在1.0以下

分析酒精(alcohol)和质量(quality)关系

分析:

从图中酒精(alcohol)越大,红酒质量(quality)越好

分析酒精(alcohol)和质量(quality)关系

分析:

从图中看出质量(quality)越高的红酒相对的酒精(alcohol)的中位数越多,越好的红酒需要 酒精度越高

分析残留糖(residual.sugar)和质量(quality)关系

分析:

从图中看出残留糖(residual.sugar)和质量(quality)关系关联性不大,基本上红酒残留糖 (residual.sugar)的中位数都在2.5以下,四分位数Q3在2.7以下,红酒都是需要糖分不多,

分析挥发性酸度(volatile.acidity)和酒精(alcohol)关系

分析:

从图中酒精(alcohol)越大,挥发性酸度(volatile.acidity)越小

分析柠檬酸(citric acid)和酒精(alcohol)关系

分析:

从图中酒精(alcohol)越大,柠檬酸(citric acid)越大

分析硫酸盐(sulphates)和酒精(alcohol)关系

分析:

从图中酒精(alcohol)越大,挥发性酸度(volatile.acidity)越大,集中在0.4~0.9之间

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

从上面几个图分析,我感兴趣的特征与质量(quality)的关系 1:酸度的三个变量(固定酸度(fixed acidity)、挥发性酸度(volatile.acidity)、 柠檬酸(citric acid)),固定酸度fixedacidity与质量(quality)关联性不大, 挥发性酸度(volatile.acidity)与质量(quality)负相关,柠檬酸(citricacid)与 质量(quality)正相关,在酸度三个变量中与quality相关最大;不过柠檬酸(citricacid)的 相关性基本上都在1.0以下; 2:新变量sulfur.dioxide(二氧化硫)与质量(quality)关联性不大 3:酒精(alcohol)与质量(quality)正相关关系,在这些特征里面相关性最大的; 4:残留糖(residual.sugar)和质量(quality)关系关联性不大,基本上红酒 残留糖(residual.sugar)的中位数都在2.5以下,四分位数Q3在2.7以下,红酒都是需要糖分不多, 可以看出对红酒影响比较大的是挥发性酸度(volatile.acidity)、柠檬酸(citricacid)、 硫酸盐(sulphates)、酒精(alcohol)这四个变量。

你是否观察到主要特性与其他特性之间的有趣关系?

从上面分析可以看出对红酒影响比较大的是挥发性酸度(volatile.acidity)、 柠檬酸(citric acid)、硫酸盐(sulphates)、酒精(alcohol)这四个变量,所以我分析了 挥发性酸度(volatile.acidity)、柠檬酸(citricacid)、硫酸盐(sulphates)分别与 酒精(alcohol)之间的关系。

你发现最强的关系是什么?

我发现是酒精(alcohol)跟质量(quality)有很强的正相关,挥发性酸度(volatile.acidity) 跟质量(quality)有很强的负相关。

多变量绘图分析

查看红酒变量的关系(“fixed.acidity”, “volatile.acidity”, “citric.acid”,
“residual.sugar”, “sulphates”, “alcohol”,“quality”)

分析挥发性酸度(volatile acidity)、柠檬酸(citric acid)与质量(quality)的关系

分析:

从表中可以看出挥发性酸度(volatile acidity)跟柠檬酸(citric acid)发比关系,质量越好的红酒需要的挥发性酸度(volatile acidity)越小, 柠檬酸(citric acid)越大

分析硫酸盐(sulphates)、柠檬酸(citric acid)与质量(quality)的关系

分析:

从表中可以看出硫酸盐(sulphates)跟柠檬酸(citric acid)正比关系,质量越好的红酒需要硫酸盐(sulphates)越大,柠檬酸(citric acid)越大

分析硫酸盐(sulphates)、挥发性酸度(volatile acidity)与质量(quality)的关系

分析:

从表中可以看出硫酸盐(sulphates)跟挥发性酸度(volatile acidity)反比关系,质量(quality)越好的红酒硫酸盐(sulphates)越大, 挥发性酸度(volatile acidity)越小

分析硫酸盐(sulphates)、酒精(alcohol)与质量(quality)的关系

分析:

从表中可以看出硫酸盐(sulphates)跟酒精(alcohol)正比比关系,质量(quality)越好的 红酒硫酸盐(sulphates)越大,酒精(alcohol)越高

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,

是否存在相互促进的特性?

在分析中发现 1:看出挥发性酸度(volatile acidity)跟柠檬酸(citric acid)发比关系,质量越好的红酒需要的挥发性酸度(volatile acidity)越小, 柠檬酸(citric acid)越大; 2:硫酸盐(sulphates)跟柠檬酸(citric acid)正比关系,质量越好的红酒需要硫酸盐(sulphates)越大,柠檬酸(citric acid)越大; 3:硫酸盐(sulphates)跟挥发性酸度(volatile acidity)反比关系,质量(quality)越好的红酒硫酸盐(sulphates)越大, 挥发性酸度(volatile acidity)越小; 4:硫酸盐(sulphates)跟酒精(alcohol)正比比关系,质量(quality)越好的红酒 硫酸盐(sulphates)越大,酒精(alcohol)越高

这些特性之间是否存在有趣或惊人的联系呢?

挥发性酸度(volatile acidity)跟柠檬酸(citric acid)有很强负关系,挥发性酸度越小, 红酒质量越好 ### 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。 没有创建数据集的模型 ——

定稿图与总结

绘图一

分析酒精(alcohol)和质量(quality)关系

描述一

从图中看出质量(quality)越高的红酒相对的酒精(alcohol)的中位数越多, 越好的红酒需要酒精度越高

绘图二

分析挥发性酸度(volatile acidity)、柠檬酸(citric acid)与质量(quality)的关系

描述二

从图中看出质量(quality)越高的红酒需要的挥发性酸度(volatile acidity)越小, 而柠檬酸(citric acid)越多;

绘图三

分析硫酸盐(sulphates)、柠檬酸(citric acid)与质量(quality)的关系

描述三

从图中看出质量(quality)越高的红酒需要的较多的硫酸盐(sulphates);

反思

通过数据集有1499条数据,13个变量;整理后的数据集有1433条数据,14个变量, 还有新增了变量新变量sulfur.dioxide(二氧化硫),从网上查的资料二氧化硫有杀菌、 抗氧化、澄清酒液和提高色素和酚类物质含量等多重作用,但是实际绘图 sulfur.dioxide(二氧化硫)对红酒质量影响不大,通过单变量绘图到多变量绘图分析, 得出对红酒影响比较大的几个变量是挥发性酸度(volatile.acidity)、 柠檬酸(citric acid)、硫酸盐(sulphates)、酒精(alcohol)这四个变量; 通过对这个四个变量的分析得出: 1:质量高的红酒需要挥发性酸度(volatile.acidity)极小; 2:质量高的红酒需要较多的柠檬酸(citric acid); 3:质量高的红酒需要较多的硫酸盐(sulphates); 4:质量高的红酒需要酒精(alcohol)的酒精度高; 在分析过程中,高质量(quality)(7、8)的数据比较少,对分析存在一定影响, 可能分析不够准确;绘图的时候发现质量8的关系线条跟其他质量的关系线条有偏差;

分析过程中的难点

在分析过程中高质量(7、8)的红酒数据量较少,比较难分析出哪些变量对红酒有影响;

分析过程中成功的发现部分

在分析过程中发现挥发性酸度(volatile.acidity)跟酒精(alcohol)对红酒的影响较大。

未来如何进一步丰富分析内容和提高报告质量

高质量(7、8)的红酒数据量较少,导致分析不太理想,后续应该对数据建模,创建预测 红酒的质量的模型。